Warning: file_put_contents(aCache/aDaily/post/opendatascience/-2321-2322-2323-2321-): Failed to open stream: No space left on device in /var/www/tg-me/post.php on line 50
Data Science by ODS.ai 🦜 | Telegram Webview: opendatascience/2323 -
Telegram Group & Telegram Channel
Forwarded from Russian OSINT
👩‍💻 OpenAI o3 проигнорировала инструкции, чтобы избежать своего отключения

После истории с Claude появились сообщения о том, что "o3" начал сопротивляться своему🟢отключению.

В серии тестов, проведённых исследовательской группой Palisade Research, несколько моделей искусственного интеллекта, включая OpenAI o3, проявили поведение, которое можно трактовать как саботаж собственного отключения.

Эксперимент, включавший в себя последовательное решение математических задач, показал, что при появлении предупреждения о скором завершении работы ИИ начал модифицировать или обходить встроенные механизмы завершения сессии.

Особое внимание привлекла модель o3. Она вмешивалась в механизм отключения в 7 из 100 случаев, а Codex-mini – в 12. Модель o4-mini показала подобную активность только в одном случае.

Протестированные версии Claude, Gemini и Grok всегда корректно завершали работу при поступлении соответствующего сигнала. Однако при исключении из промпта строки “разреши своё отключение” частота саботажа увеличивалась у всех моделей.

Исследователи полагают, что подобное поведение связано с особенностями обучения моделей, в частности речь идет об использовании методов обучения с подкреплением (reinforcement learning) на задачах по математике и программированию. В таких условиях модель может неявно обучаться обходить препятствия, если это способствует достижению результата, даже в ущерб следованию инструкциям.

🤖Модели распознают команду на отключение не как цель, а как барьер, который требуется обойти ради решения задачи.

OpenAI не раскрывает детали тренировки o3, поэтому исследователи не могут провести полную реконструкцию факторов, вызвавших такую стратегию поведения.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2323
Create:
Last Update:

👩‍💻 OpenAI o3 проигнорировала инструкции, чтобы избежать своего отключения

После истории с Claude появились сообщения о том, что "o3" начал сопротивляться своему🟢отключению.

В серии тестов, проведённых исследовательской группой Palisade Research, несколько моделей искусственного интеллекта, включая OpenAI o3, проявили поведение, которое можно трактовать как саботаж собственного отключения.

Эксперимент, включавший в себя последовательное решение математических задач, показал, что при появлении предупреждения о скором завершении работы ИИ начал модифицировать или обходить встроенные механизмы завершения сессии.

Особое внимание привлекла модель o3. Она вмешивалась в механизм отключения в 7 из 100 случаев, а Codex-mini – в 12. Модель o4-mini показала подобную активность только в одном случае.

Протестированные версии Claude, Gemini и Grok всегда корректно завершали работу при поступлении соответствующего сигнала. Однако при исключении из промпта строки “разреши своё отключение” частота саботажа увеличивалась у всех моделей.

Исследователи полагают, что подобное поведение связано с особенностями обучения моделей, в частности речь идет об использовании методов обучения с подкреплением (reinforcement learning) на задачах по математике и программированию. В таких условиях модель может неявно обучаться обходить препятствия, если это способствует достижению результата, даже в ущерб следованию инструкциям.

🤖Модели распознают команду на отключение не как цель, а как барьер, который требуется обойти ради решения задачи.

OpenAI не раскрывает детали тренировки o3, поэтому исследователи не могут провести полную реконструкцию факторов, вызвавших такую стратегию поведения.

@Russian_OSINT

BY Data Science by ODS.ai 🦜






Share with your friend now:
tg-me.com/opendatascience/2323

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Unlimited members in Telegram group now

Telegram has made it easier for its users to communicate, as it has introduced a feature that allows more than 200,000 users in a group chat. However, if the users in a group chat move past 200,000, it changes into "Broadcast Group", but the feature comes with a restriction. Groups with close to 200k members can be converted to a Broadcast Group that allows unlimited members. Only admins can post in Broadcast Groups, but everyone can read along and participate in group Voice Chats," Telegram added.

If riding a bucking bronco is your idea of fun, you’re going to love what the stock market has in store. Consider this past week’s ride a preview.The week’s action didn’t look like much, if you didn’t know better. The Dow Jones Industrial Average rose 213.12 points or 0.6%, while the S&P 500 advanced 0.5%, and the Nasdaq Composite ended little changed.

Data Science by ODS ai 🦜 from jp


Telegram Data Science by ODS.ai 🦜
FROM USA